Text copied to clipboard!

Название

Text copied to clipboard!

Инженер по надежности сайта

Описание

Text copied to clipboard!
Мы ищем Инженера по надежности сайта, который будет играть ключевую роль в обеспечении высокой доступности, производительности и устойчивости наших цифровых продуктов. В этой роли вы будете работать в тесном сотрудничестве с командами разработки, эксплуатации и безопасности для проектирования, построения и поддержки масштабируемых и отказоустойчивых систем. Вы будете использовать лучшие практики DevOps, автоматизацию и мониторинг для обеспечения бесперебойной работы сервисов и быстрого реагирования на инциденты. Инженер по надежности сайта (SRE) отвечает за внедрение процессов, которые позволяют системам быть самовосстанавливающимися, масштабируемыми и предсказуемыми. Вы будете анализировать инциденты, выявлять корневые причины и разрабатывать решения, предотвращающие повторение проблем. Также вы будете участвовать в разработке инструментов и платформ, которые помогут другим командам быстрее и безопаснее разрабатывать и внедрять программное обеспечение. Мы ценим инициативность, аналитическое мышление и стремление к постоянному улучшению. Если вы увлечены автоматизацией, мониторингом и построением надёжных систем — мы будем рады видеть вас в нашей команде.

Обязанности

Text copied to clipboard!
  • Разработка и поддержка инструментов мониторинга и алертинга
  • Автоматизация процессов развертывания и управления инфраструктурой
  • Анализ и устранение инцидентов, выявление корневых причин
  • Оптимизация производительности и устойчивости систем
  • Сотрудничество с командами разработки для улучшения архитектуры приложений
  • Участие в планировании и реализации стратегий отказоустойчивости
  • Разработка и поддержка документации по эксплуатации систем
  • Оценка рисков и внедрение мер по обеспечению безопасности
  • Участие в дежурствах по реагированию на инциденты
  • Построение и поддержка CI/CD пайплайнов

Требования

Text copied to clipboard!
  • Опыт работы в роли SRE, DevOps или системного администратора от 2 лет
  • Знание Linux/Unix систем и принципов их администрирования
  • Опыт работы с облачными платформами (AWS, GCP, Azure)
  • Навыки программирования на Python, Go или Bash
  • Опыт работы с системами мониторинга (Prometheus, Grafana, ELK)
  • Знание принципов CI/CD и опыт работы с Jenkins, GitLab CI или аналогами
  • Понимание сетевых протоколов и принципов безопасности
  • Умение анализировать логи и производить отладку систем
  • Опыт работы с контейнерами и оркестраторами (Docker, Kubernetes)
  • Хорошие коммуникативные навыки и умение работать в команде

Возможные вопросы на интервью

Text copied to clipboard!
  • Какой у вас опыт работы с системами мониторинга и алертинга?
  • Какие инструменты вы используете для автоматизации инфраструктуры?
  • Расскажите о случае, когда вы устраняли критический инцидент.
  • Как вы обеспечиваете отказоустойчивость систем?
  • Какой у вас опыт работы с CI/CD пайплайнами?
  • Какие языки программирования вы используете в своей работе?
  • Как вы подходите к анализу производительности системы?
  • Как вы взаимодействуете с командами разработки?
  • Как вы обеспечиваете безопасность инфраструктуры?
  • Какие метрики вы считаете ключевыми для оценки надёжности?